TRM思考奖励模型上线,大模型推理质量终于能量化了 | ICML‘26 Oral TRM思考奖励模型上线,大模型推理质量终于能量化了 | ICML‘26 Oral 关键词: AI新闻,TRM,Thinking Reward Model,模型训练 大模型推理能力越来越强,但答案对了,思考过程就一定好吗? 来自主题: AI技术研报 5711 点击 2026-06-24 16:03